估计基因组大小, Kmer survey还是Flow Cytometry?
前 言
在denovo基因组测序中,通常会先预估基因组大小,杂合度等信息,根据基因组大小和复杂度来判断测序数据的深度,组装基因组的难易程度等。
预测基因组大小的方法主要有两种,基于Kmer频率的survey分析和基于流式细胞术(Flow Cytometry)的实验方法。
流式细胞术是一种经济高效、相对准确且快速的植物基因组大小估计的实验技术。与 DNA 定量结合的荧光染料对完整细胞核进行染色来估计 DNA 量。在木本植物中高浓度的酚类化合物,可能会导致化学计量误差。
基因组大小也可以通过 Illumina 测序数据的 k-mer 分析进行估计。许多用于生成 k-mer 频率的工具(例如,KAT 、Jellyfish)和基于 k-mer 的基因组大小估计(BBNorm 、Genomescope、FindGSE) 已开发。
这里通过在南非红茶中(Mgwatyu et al., 2020)进行的分析,简单对比一下Kmer survey和Flow Cytometry预估基因组大小的结果对比及影响因素。
流式细胞术估计基因组大小影响因素
1.缓冲液
2.组织类型
3.保存运输介质
流式细胞术一般选择新鲜植物材料, 当在偏远地区收集样品时,必须确保适合的其运输介质, 测试了四种保存介质:
无菌水
5% 甘油溶液
10% 甘油溶液
硅胶
图1 使用不同生长类型的南非红茶叶片进行流式细胞术基因组大小估计 (RC = Red Commercial (n = 10), RE = Red Escaped (n = 5), RW = Red Wild (n = 6), WT =Wupperthal Type (n = 9), TT = Tree Type (n = 5), GS = Grey Sprouter (n = 5), NiS = Nieuwoudtville Sprouter (n = 11), NS = Northern Sprouter (n = 5), AT = Algeria Type (n = 5), NT = Nardouwsberg Type (n = 4))
Kmer频率估计基因组大小
研究了四种方法(BBNorm、GenomeScope 和 FindGSE)和常用的基因组大小计算公式。对于每个程序,研究了
iSeq 序列子集与完整数据集(MiSeq 和 HiSeq 数据)
k-mer 大小
原始数据与质控处理数据。
GenomeSope(v1 和 v2)的表现受参数设置的强烈影响:基因组大小估计从 0.51 Gbp 到 1.01 Gbp。最有影响的参数是最大 k-mer 覆盖的cutoff-mer 覆盖率 (CovMax)。在较低的 CovMax 设置下差异更大,范围从 1k 时的 0.17 Gbp、10k 时的 0.11 Gbp 到 900k 时的 0.01 Gbp。对于 GenomeScope,使用 MiSeq 子集与完整数据集以及原始数据与质控处理数据的影响很小 (<0.10 Gbp)。
FindGSE 预测南非红茶基因组大小为 1.06 ± 0.03 Gbp(所有测试参数的平均值)。使用该程序,MiSeq 子集与完整数据集中相应值之间的差异很小(范围从 0.01 Gb 到 0.09 Gb)。增加 k-mer 大小只会略微增加基因组大小估计(最大 0.04 Gbp),原始数据和质控处理数据之间的差异也很小(最大 0.04 Gbp)。
总 结
植物基因组大小的估计仍然是一项具有挑战性的工作。除上面描述的因素,不同植物化合物会影响染色剂结合,造成流式细胞术对基因组大小高估。而基于 k-mer 分析的值可能会受数据质量、软件及参数设置的影响,因此通过两种方式评估的基因组大小经常存在差异,对此应正确看待,并分析造成差异的具体原因。
参 考 文 献
Mgwatyu, Y., Stander, A.A., Ferreira, S., Williams, W., and Hesse, U. (2020). Rooibos (Aspalathus linearis) Genome Size Estimation Using Flow Cytometry and K-Mer Analyses. Plants (Basel) 9.
往期回顾
MAGMA软件实现gene-based & gene-set-based关联分析